PRML을 읽고 정리한 내용입니다.
Probability density function
확률밀도함수는 연속확률변수가 미소구간안에 속하는 사건에 대한 확률을 미소구간의 길이로 나눈 확률밀도값을 함숫값으로 가지는 확률함수로 정의합니다.
\[p(x) \overset{\Delta}{=} \lim_{\Delta x \rightarrow 0}\frac{p(x<X\leq x+\Delta x))}{\Delta x}\]
확률밀도함수를 정적분하면 확률변수가 임의의 구간안에 속하는 사건에 대한 확률을 얻을 수 있습니다.(증명)
\[\begin{aligned} P(a < X \leq b) = \int_{a}^{b}p(u)d(u) \end{aligned}\]확률밀도함수는 다음의 두 가지 조건을 만족해야 합니다. 첫번째 식은 확률(밀도)는 반드시 0보다 크거나 같음을 의미합니다. 두번째 식에서 확률변수는 반드시 \((-\infty,\infty]\)인 구간안에 속함을 의미합니다.
\[\begin{align} p(x) \geq 0 \\ \int_{-\infty}^{\infty}f(t)dt = 1 \end{align}\]
Probabiltiy variable transform
이 부분의 내용은 PRML에 있는 내용을 각색한 부분입니다. 틀린부분이 있다면 알려주세요!!
연속확률변수 \(X\)의 확률밀도함수를 \(p_X(x)\)라 할 때, 변수를 변환하여 \(X\)를 \(Y\)에 관한 식\(X = g(Y)\)로 표현했다고 해봅시다. 목적은 확률변수 \(Y\)의 확률밀도함수 \(p_Y(y)\)를 얻는 것입니다. \(\Delta x\rightarrow 0 \Delta y \rightarrow 0\)이라고 한다면 다음이 성립합니다.
\[\begin{aligned} &\lim_{\Delta x \rightarrow 0}\frac{p(x < X \leq x + \Delta x)}{\Delta x} \times \Delta x \overset{\sim}{=} \lim_{\Delta y \rightarrow 0}\frac{p(y < Y \leq y + \Delta y)}{\Delta y} \times \Delta y \\ &\Longleftrightarrow p_X(x)dx \overset{\sim}{=} p_Y(y)dy \end{aligned}\]윗식은 Jacobian factor에 의해 등식으로 바꿀 수 있습니다.
\[\begin{aligned} p_Y(y) &= p_X(x) \begin {vmatrix} \frac{dx}{dy} \end {vmatrix} \\ &= p_X(g(y))|g^{'}(y)| \end{aligned}\]확률변수의 변환은 확률분포함수를 최대화 하는 문제에서 유용하게 사용할 수 있다고 합니다. 변환할 변수를 선택하면 최대화해야하는 확률함수를 바꿀 수 있습니다.
Sum rule & Product rule of continuous variable
이산확률변수에 대해서는 Sum rule과 Product rule을 살펴봤었지만 연속확률변수 대해서는 보지 않았었습니다. 연속확률변수의 경우 다음과 같습니다. 엄밀한 증명은 measure theroy로 증명해야 하므로 .. 생략하겠습니다.(간략한 증명)
\[\begin{aligned} &p(x) = \int_y f(x,y)dy \\ &p(x,y) = p(y|x)p(x) \end{aligned}\]Expectations and Variances
함수의 기댓값(또는 평균)은 함숫값이 어떤 값을 중심으로 분포하는지를 알려줍니다. 가능한 모든\(x\)에 대하여 함숫값과 그때의 확률분포의 값을 곱하여 얻은 가중평균입니다.
\[\begin{aligned} &\mathbb{E}[f] = \sum_x p(x)f(x) \quad \text{If X is a discrete R.V} \\ &\mathbb{E}[f] = \int_x p(x)f(x)dx \quad \text{If X is a continuous R.V} \end{aligned}\]표본의 크기가 무한할 경우, 표본으로 부터 구한 함숫값의 평균과 기댓값은 값이 같습니다. 이를 통해서 확률분포의 기댓값을 알 수 있다면 표본이 적당히 크기가 클 경우 함숫값이 어느정도 일지 대략적으로 예측할 수 있습니다.
\[\mathbb{E}[f] = \lim_{N \rightarrow \infty}\frac{1}{N}\sum_{n=1}^{N}f(x_n)\]
다변수함수는 여러개의 변수를 가지는 함수입니다. 따라서 각각의 변수가 따르는 확률분포중에서 하나를 선택하여 그때의 확률분포와 함숫값의 기댓값을 구할 수 있습니다. 이때 기댓값은 나머지 확률변수에 대한 함수가 됩니다.
\[\mathbb{E}_x[f(x,y)] = f(y)\]
함수의 조건부 기댓값은 조건부 확률분포와의 가중평균으로 정의할 수 있습니다. \(y\)가 조건으로 주어질 때, \(x\)의 조건부 기댓값은 다음과 같습니다.
\[\mathbb{E}_x[f|y] = \sum_x{p(x|y)}{f(x)}\]
확률변수 \(f(x)\)의 분산(variance)는 함수가 기댓값을 중심으로 얼마나 퍼져있는지 알려줍니다. 편차제곱의 기댓값(평균)으로 정의합니다.
\[\begin{aligned} &\mathbb{E}[x] = \int_xxp(x)dx \text{ or } \sum_xxp(x)\\ & \begin{aligned} \text{var}[x] &= \mathbb{E}[(x - \mathbb{E}[x])^2] \\ &= \mathbb{E}[x^2] - \mathbb{E}[x]^2\\ \end{aligned} \end{aligned}\]두 개의 확률변수에 대해서 공분산은 다음과 같습니다.(2번째 식에 대한 전개)
\[\begin{align} \text{cov}[x,y] &= \mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}] \\ &=\mathbb{E}_{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y] \end{align}\]
Appendix
확률밀도함수에 관한 여러가지 증명
누적분포함수는 연속확률변수가 \((-\infty,x]\)인 구간안에 속할 확률입니다.
\[F(x) = P(-\infty<X\leq x)\]
따라서,연속확률분포의 분자를 누적분포함수로 나타낼 수 있습니다. 이는 누적분포함수의 도함수가 확률밀도함수이며 누적분포함수의 기울기,변화율이 확률밀도함수임을 나타냅니다.
\[p(x) = \lim_{\Delta x \rightarrow 0}\frac{p(x<X\leq x+\Delta x))}{\Delta x} = \lim_{\Delta x \rightarrow 0}\frac{F(x+\Delta x) - F(x)}{\Delta x} = \frac{dF}{dx}\]
누적분포함수의 도함수가 확률밀도함수이므로 확률밀도함수의 적분은 누적분포함수입니다.
\[\int_{-\infty}^{x}f(t)dt = F(x) = P(-\infty<X\leq x)\]
임의의 구간 \((a,b]\)사이에 확률변수 \(X\)가 속하는 사건에 대한 확률은 다음과 같습니다.
\[\begin{aligned} P(a < X \leq b) &= P(-\infty < X \leq b) - P(-\infty < X \leq a) \\ &= F(b) - F(a) \\ &= \int_{-\infty}^{b}f(t)dt - \int_{-\infty}^{a}f(t)dt \\ &= \int_{a}^{b}f(t)dt \end{aligned}\]공분산 전개하기
\[\begin{aligned} \text{cov}[x,y] &= \mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}] \\ &=\mathbb{E}_{x,y}[xy - x\mathbb{E}[y] - y\mathbb{E}[x] + \mathbb{E}[x]\mathbb{E}[y]]\\ &=\mathbb{E}_{x,y}[xy] - \mathbb{E}_{x,y}[x\mathbb{E}[y]] - \mathbb{E}_{x,y}[y\mathbb{E}[x]] + \mathbb{E}[x]\mathbb{E}[y]]\\ \end{aligned}\]여기서 \(\mathbb{E}_{x,y}[x\mathbb{E}[y]]\)는 다음과 같다.
\[\begin{aligned} \int_{\infty}^{\infty}\int_{\infty}^{\infty}x\mathbb{E}[y]p(y)p(x)dydx &= \int_{\infty}^{\infty}x\mathbb{E}[y]p(x)\bigg(\int_{\infty}^{\infty}p(y)dy\bigg)dx \\ &= \int_{\infty}^{\infty}x\mathbb{E}[y]p(x)dx \\ &= \mathbb{E}[y]\int_{\infty}^{\infty}xp(x)dx \\ &= \mathbb{E}[y]\mathbb{E}[x] \end{aligned}\]마찬가지로 \(\mathbb{E}_{x,y}[y\mathbb{E}[x]]\)도 같은 값을 가진다. 따라서 다음과 같다.
\[\begin{aligned} \text{cov}[x,y] &= \mathbb{E}_{x,y}[xy] - \mathbb{E}_{x,y}[x\mathbb{E}[y]] - \mathbb{E}_{x,y}[y\mathbb{E}[x]] + \mathbb{E}[x]\mathbb{E}[y]]\\ &= \mathbb{E}_{x,y}[xy] - \mathbb{E}[y]\mathbb{E}[x] - \mathbb{E}[x]\mathbb{E}[y] + \mathbb{E}[x]\mathbb{E}[y] \\ &=\mathbb{E}_{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y] \end{aligned}\]